TCR测序及分析方法简述|免疫组库测序专题
1. 前言
T细胞介导的抗原识别取决于T细胞受体(TCR)与抗原主要组织相容性复合体(MHC)分子的相互作用。TCR是高度多样化的异源二聚体,由大多数T细胞表达的α和β链(αβ TCR)的组成,或由外周血中的T细胞(1-5%)和在粘膜部位发现的T细胞表达的γδ链(γδ TCR)组成。
与B细胞表达的免疫球蛋白相似,膜结合的免疫球蛋白通常被称为B细胞受体(BCR),TCR链由抗原识别的可变区域和恒定区域组成。TCR α和δ链的可变区由多个可变的(V)和连接(J)基因编码,而TCR β和γ链由多样性(D)基因编码。在VDJ重组期间,每个基因片段的一个随机等位基因与其它基因片段重组以形成功能可变区。
用恒定基因区段重组可变区产生功能性TCR链转录物。这个过程导致强组合(取决于哪个基因区域将重组)和连接多样性(将添加/删除多少核苷酸),从而产生大量且高度可变的TCR profiling,最终鉴定到大量的TCR profiling抗原。通过配对α和β或γ和δ链以形成功能性TCR来实现多样性。
每个TCR链包含三个高可变环区(hypervariable loops),称之为互补决定区CDR1-3。CDR1和CDR2由V基因编码,并且对TCR与MHC复合物互作至关重要。然而CDR3由V和J或D和J之间连接区编码,因此CDR3变化程度较大。由于CDR3是与抗原直接接触的TCR区域,因此CDR3在TCR与肽-MHC复合物的相互作用中起到了十分重要的作用。
所以CDR3是T细胞常见的克隆区域,除非T细胞来源于相同的形式扩增出来的,一般来说T细胞几乎不太可能表达相同的CDR3序列。
所有T细胞的TCR总和成为TCR profiling(TCR谱)。随着疾病不断恶化,TCR profiling会发生很大的变化。于是研究人员越来越关注在不同的疾病条件下免疫谱的状态,如癌症、自身免疫、炎症、传染病等。
如硬化患者中T细胞的TCR谱分析表明自体干细胞移植后会对患者免疫系统带来巨大的影响。在癌症病人中,杀手T细胞(cytotoxic T cells)能够可在识别肿瘤特异性抗原后将其杀死。一些研究试图通过分析肿瘤浸润淋巴细胞谱来鉴定该过程中涉及的特定T细胞克隆类型。
目前免疫组学测序最大的问题就是过于多样化。理论上VDJ重排后可产生1015~1020种不同的克隆类型,实际上只有约1013种不同的克隆类型。这就意味着看似随机的VDJ重排其实是有规律的,并且受到各种条件的限制。
另外,以前认为正常人群中T细胞的TCR基本上较为相似,实际上最近的研究表明许多TCR都比较稀少。这就需要一种快捷高效精准的方法来研究个人免疫组库。
过去几十年内,开发了不同的技术来研究免疫组库。例如使用单克隆抗体通过荧光显微镜或流式细胞仪分析特定的V基因组亚型,而PCR技术则能够以相对较低的分辨率分析免疫组信息。直到高通量测序技术的出现,使得研究人员第一次能够大批量对TCR序列进行并行分析。目前仍然缺少一种金标准,因为每种方法都有其优缺点。
2. 选择合适的实验材料进行TCR测序
老师在选择TCR项目之前材料选择至关重要,究竟是选择DNA还是RNA都有各自的应用场景,各自有各自的优缺点。DNA层面会有更高的稳定性,并且可以以单细胞作为模板进行TCR区域克隆测序。然而DNA层面的缺点也是比较明显,无法获取基因转录层面的信息。此外由于内含子的存在以及其他原因导致测序结果不准确。当选择RNA样本时,TCR测序会面临更严峻的挑战,比如T细胞会包含多个TCR转录产物,单细胞层面会遇到比较大的问题。另外DNA和RNA其实浓度也是值得考量的点。
一般来说,由于目标的复杂性和可影响下游数据分析的批次效应等会存在一定问题,必须确保所有样品的处理尽可能均匀,例如使用相同浓度的并尝试为每个样本提供过饱和的测序量等。
3. TCR测序
目前虽然有不少针对单细胞水平的TCR测序方法,这里还是主要讨论针对细胞群体的测序方法。因为细胞群更加常见用于研究TCR多样性并研究比较较大群组中不同的profiling。但是这种方法存在缺点那就是只能提供单个TCR链的频率信息,却不能与细胞进行一一配对。
因此,单细胞的建库方法变得越来越重要,只有这种方法才可以在细胞水平上非常准确地鉴定两个TCR链对(αβ,γδ),从而使得分析达到更高的复杂水平,同时也可以更加精确地反应生物体内的功能。
然而单细胞的建库方式成本十分昂贵,与那种针对大批量免疫细胞的建库方式相比,这种方法覆盖到的细胞数量有限。此外单细胞的建库方法需要新鲜样本以用于活细胞的分离和分选,这就使得这种方法应用场景极其有限,具有一定的局限性。因为对科研工作者而言并不是每次实验都可以取到新鲜的疾病样本,这也是不现实的。
4. 靶序列的选择:链或CDR区域
靶序列的选择:链或CDR区域(Choosing target sequences: Chains and CDR regions)
尽管目前有大量试剂公司或测序仪生产厂商所提供的试剂盒包含各种链的测序服务,甚至小部分公司声称可以测几乎所有的TCR链。由于αβ T细胞群在总T细胞群中占比是绝大多数,所以α链和β链仍然是最常见的目标区域。
先前的研究中,β链是研究的主要靶区域,因为β链(VDJ中D基因的主要成分)与α链相比具有更高的组合潜力。单个细胞只可能表达唯一的β链,而同样的细胞有可能会表达两条α链,这就使得复杂度大大增加。
γδ T细胞受体相关的论文目前数量还不是特别多,因为γδ T细胞比例在总T细胞群中占比不高。与αβ TCR相比,γδ TCR整体来说多样性水平较低并且在其分析区域存在一定的丰度偏差,因为γδ T细胞在粘膜处频率较高。因此当前主流研究对象依旧是全血/外周血最多,其他类型样本研究不是特别多。
基于多重PCR(Multiple PCR)的方法可以同时扩增α链和β链,但是这种方法通常在文库制备和测序这两个环节会造成一定的误差。无论如何,PCR扩增法已被证实能够提高结果的准确性和特异性。
CDR3是许多TCR测序优先选择的研究目标区域,因为CDR3的TCR能够与多肽以及抗原直接项目作用。
目前关于CDR1和CDR2的研究不是很多,因为CDR1和CDR2并不直接与抗原互作。然而CDR1和CDR2在协助与MHC互作的接触中发挥很重要的作用,从而会在最终影响TCR结合的敏感性和亲和性。所以了解包括CDR1、CDR2以及CDR3等区域的序列信息能够帮助科研工作者更加全面了解和推测TCR结构及其结合特征。
但是目前来说并非所有的方法都能够检测CDR1和CDR2,这种条件上的限制只能借助多对引物设计才能实现,也就是所谓的多重PCR才能完成。事实上,V基因的不同位置可以设计许多对特异性引物,可以用于消除测到CDR3区域外的可能性。
5. 文库构建方法
鉴于目标区域的多样性,多重PCR这种方法目前使用较多,包括Illumina、iRepertoire以及联川生物在内的国内外多家公司可以根据客户需求进行相应的多重PCR订制服务。等位基因的扩增引物或者是TCR α和β链非可变区与所有已知的V等位基因的扩增引物可以全部混合在一起使用。扩增区域可以覆盖整个CDR3区域。
多重PCR既适用于DNA样本,也可以针对RNA样本。根据市面上部分公司已公布的一些panel信息来看,引物几乎不存在交叉干扰的情况。但是多重PCR也存在一定的弊端那就是,无法检测V等位基因的突变信息。
此外多重PCR还存在引物扩增偏好性问题,这就会导致后期部分等位基因所得的扩增产物在相对丰度上存在误差。目前主流的方法包括调整引物浓度或使用分子标签(molecular tag或UMI)等技术,可以在一定程度上纠正这种错误。
由于TCR本身的复杂性和可变性,目前使用目标区域捕获这种方法不是显得特别主流。本章节仅仅做个简单的介绍。
市面上仅有的为数不多的方法包括安捷伦的RNA捕获探针,用于靶向富集αβ T细胞的TCR。文库制备试剂盒通常使用的是Agilent的 Illumina TruSeq或者是SureSelectXT处理gDNA或RNA,然后将样品与定制探针进行杂交。这些RNA探针与感兴趣的区域序列互补,然后这些被捕获的序列会进行进一步扩增。此外这种方法也是需要一定数量的PCR循环,但是不太会受PCR偏好性影响。这种捕获的方法可以同时处理α和β链,也可以分开处理,通常来说分开处理结果会更加准确。
对于RNA样本,5’ RACE法正在成为大批量分析TCR的金标准。这种方法的核心技术少不了CloneTech的SMART扩增,依靠的就是逆转录酶活性。在第一链合成反应期间在cDNA的3’端附加额外的dCTP。总之这种方法能够合成含有mRNA完整5’ 的cDNA,通常会覆盖到完整的V基因,保留完整的TCR和VDJ区域。接下来RACE扩增产物用于NGS测序+分析。
6. TCR分析上的一些问题
目前TCR在生物信息学分析的方法改进上比原来进步了很多,尽管如此基于PCR技术限制所导致的错误仍然有很多亟待解决,如GC含量差异、扩增随机性、模板转换错误以及聚合酶等都有可能影响最后的扩增效率。此外,实验还需要始终考虑到一些与建库过程无关的一些错误。
TCR测序特别容易受到测序仪的影响而导致的reads读取错误,因为许多TCRs之间的区间仅仅由于单个碱基,这也会导致后面分析上带来错误,尤其是一些低频突变。这时候分子标签UMI或者Molecular Tag就成为了降低噪音的一种不错的方法从而减少PCR扩增以及测序仪本身带来的影响,最后对测序结果进行校正。
UMI分子标签这项技术目前已经在诸多应用场景中被实现,从绝对定量转录组(去除因为构建文库过程中PCR偏好性而导致的duplication)到ctDNA液态活检技术均已实现。UMI的引入使得研究人员最终能够拿到RNA转录本的绝对数量。
将5-10个随机碱基序列添加到模板后,无论建库过程中PCR扩增造成何种误差,最终通过分子标签聚类仍然可以获得最原始的转录本数量。使用UMI来对数据进行校正和纠错,可以获得更加真实的免疫组信息。
目前市面上所使用的测序平台比较多,Ion Torrent以及罗氏454等已经逐渐退出了历史舞台,现在几乎成为了Illumina的天下。由于Illumina也有多种测序平台如Miseq、Nextseq、Hiseq、Novaseq等,所以这就意味着需要仔细选择测序仪型号和测序深度。高测序深度可以分析更加完整更加复杂的免疫组谱,但是深度并不是免疫组测序的最佳选择,这取决于最终的研究目的。
研究疾病通常需要对高表达的TCR进行克隆和扩增。所以这种情况下免疫组库一些低覆盖的筛选足以捕获样本中最常见的克隆型。所以Miseq平台较为常见,而Hiseq则用于高深度测序。
为了能够做到尽量多的覆盖,一般建议至少最低30000个reads起。但是理想情况下应该每10ng RNA起始量中至少得有100000个reads起(约为10000个淋巴细胞)。
文库的多样性问题最后也会影响测序质量。与基于5’ RACE扩增的文库相比,多重PCR和靶向捕获文库具有更高的多样性,所以文库在5’接头开始处都是一样的。文库多样性越高,Illumina测序平台会更加稳定。而5’ RACE等构件的文库之后还需要添加平衡文库或随机序列等方法来克服多样性较低的问题。
7. 数据分析
通过已发表的文献来看,已有诸多免疫组学相关生物信息分析软件发布,如IMSEQ、TCRklass、iMonitor、LymAnalyzer、RTRC等。目前较为流行的是MiXCR(曾经叫MiTCR),可以对高度个性化的TCR和免疫球蛋白序列进行分析。MiXCR可以针对不同的数据类型在参数上进行调整,并对分析结果和输出进行优化。关于UMI的数据分析软件目前主流的有MIGEC和pRESTO。而LymAnalyzer还包含用于IGs的SNP突变分析等。以上这些提及的软件仅用于数据的初级分析。
免疫组库的进一步高级分析通常会涉及一个或多个多样性指数,如香农指数(Shannon)、辛普森指数(Simpson)、Inverse-Simpson指数和基尼指数(Gini)等。
目前用于二级TCR profiling分析以及多样性评估有许多不同的软件,这些工具在OMIC-tools社区的Rep-seq中给出了详细列表(https://omictools.com/rep-seq-category)。最近开发的包括VDJtools在内的诸多软件能够分析上面所述的所有软件能够实现的功能。VDJviz则是一款在功能上与VDJtools相似的Web端工具。
另一个名为tcR的R包,可以处理上面提到的这些软件(ImmunoSEQ、IMSEQ、MiTCR、MiXCR、MIGEC、VDJtools)任意的输出格式。
PNAS文章是怎么说绝对定量转录组测序的?| UMI性能测试